Introducción

Column

Fecha

2022-10-23

Hora Inicio

7:00 AM

Tiempo Promedio

65.26 MIN

Distancia

10.07 KM

Maxima paso

3.29 MIN/KM

Column

Participantes

1922

Hora Fin

9:00 AM

Tiempo Mediana

63.51 MIN

Mejor velocidad

5.07 M/S

Mejor tiempo

33.13 MIN

Column

10K de la Luz

PARA NAVEGAR POR ESTE ESTUDIO POR FAVOR DAR CLIC EN EL MENU UBICADO EN LA PARTE SUPERIOR IZQUIERDA AL LADO DEL TITULO

El 10K de la Luz se llevó a cabo en la ciudad de Cali en octubre de 2022, con el objetivo de promover el deporte y la salud en la comunidad.

Este evento atrajo a muchos corredores de diferentes edades y niveles de habilidad, quienes compitieron en un recorrido de 10 kilómetros a través de las calles de la ciudad.

Para analizar los resultados de la carrera, se realizó una breve exploración de los datos incluidos en el data set CarreraLuz22 en la libreria paqueteMET disponible en: https://github.com/dgonxalex80/paqueteMET.

El objetivo de esta exploración fue observar si hay algunas variables que estén relacionadas con los tiempos de finalización de la carrera.

Además de los datos, se utilizó información e imágenes obtenidas de: https://juanchocorrelon.com/intercontinental-10k-luz-2022/.


El presente ejercicio fue llevado a cabo por Camilo Vega Ramírez como parte del curso Métodos y Simulación Estadística de la Maestría en Ciencia de Datos de la Pontificia Universidad Javeriana en Cali.

Recorrido

Exploración Inicial

Column

Time Run

Sex

Column

Edad

Categoria

Column

Origen

Nacionalidad

Column

Discusión

  • Time Run: Es la variable objetivo de nuestro análisis, con una media de 3915.76 segundos, y una mediana de 3810.5 segundos. La distribución presenta una moderada asimetría positiva (skewness: 0.69). Cuenta un valor atípico extremo de 9962 segundos.

  • Edad: Cuenta con una media de 37.45 años, y una mediana de 36 años. La distribución presenta una moderada asimetría positiva (skewness: 0.64).

  • Origen: La variable Origen se encuentra desequilibrada, con aproximadamente el 86% de los participantes provenientes de Cali y el restante 14% de otras 48 ciudades. Debido a esto, descartaremos esta variable en nuestro análisis.

  • Sex: La proporción de participantes mujeres es aproximadamente del 39% y la de hombres es del 61%.

  • Categoria: La variable categoría está desequilibrada, con la categoría abierta siendo la de más participantes (aprox. 61%). Debido a esto, descartaremos esta variable en nuestro análisis. Sin embargo, dado que la variable edad presenta solo una moderada asimetría positiva, se seguiere refactorizando los rangos de edad en categorías equilibradas.

  • Nacionalidad: La variable nacionalidad se encuentra desequilibrada, con aproximadamente el 99% de los participantes siendo colombianos y el restante 1% de otras 5 nacionalidades. Debido a esto, descartaremos esta variable en nuestro análisis.

Ingeniería de características y limpieza

Column

Time Run en minutos sin valor más alto

Tiempos por arriba (FALSE) y por bajo (TRUE) de la mediana

Column

Edades por rangos con obervaciones similares

Discusión

  • Time Rum: Para facilitar la comprensión, se ha creado la variable timerun_minutes ue muestra el tiempo de carrera en minutos. Además, se ha eliminado el valor atípico extremo. Con estas modificaciones, el tiempo promedio se convierte en 65.21 minutos, la mediana en 63.5 minutos y la asimetría (skewness) se reduce a 0.46, lo que se asemeja más a una distribución normal.

  • Rango Edades: Se ha utilizado la función cut_number() de la libreria ggplot2 para crear la variable rango_edad, que distribuye las edades en rangos con una cantidad más similar de observaciones.

  • Tiempo Bajo Mediana: Se ha creado la variable time_under_mean para identificar de manera binaria aquellas observaciones cuya tiempo se encuentra por debajo TRUE o por encima de la mediana FALSE Esta variable será utilizada en un análisis de correlación con las variables categóricas timerun_minutes y rango_edad.

Embudo de Correlación

Column

Embudo de Correlación

Column

Discusión

Se utilizó la técnica de embudo de correlación, tal como se describe en la guía de la librería correlationfunnel. Se pudo observar que:

  • Sex: El género masculino presenta una correlación leve con los tiempos por debajo de la mediana y el género femenino presenta una correlación leve con los tiempos por encima de la mediana.

  • Rango Edad: Las edades entre 34 y 46 años presentan una correlación muy débil con los tiempos por debajo de la mediana, mientras que las edades entre 15 y 33 años y entre 47 y 76 años presentan una correlación muy débil con los tiempos por encima de la mediana.

Posteriormente, se realizarán comparaciones univariadas de sex contra timerun_minutes y de sex contra rango_edad, así como una comparación multivariada de sex contra timerun_minutes y rango_edad, estas dos ultimas solo a manera de ejercicio debido a que, como se pudo observar, la correlación entre los tiempos de carrera y los rangos de edad es prácticamente inexistente.

Analisis Univariado

Column

Sex

sex min q1 median mean q3 max
Hombre 33.13 53.58 60.07 61.95 69.02 114.47
Mujer 39.25 61.60 68.99 70.36 78.57 111.37

Rango Edad

rango_edad min q1 median mean q3 max
(33,39] 35.20 55.94 62.23 64.28 72.60 105.88
(39,46] 39.30 55.93 62.27 64.47 72.16 111.37
(46,76] 37.30 56.33 64.02 65.08 72.65 105.18
(28,33] 34.02 57.32 65.05 65.48 72.40 98.77
[15,28] 33.13 56.91 65.30 66.57 76.56 114.47

Column

Discusión

  • Tiempo por Genero: En los datos obtenidos, se puede observar que en general, los hombres obtienen tiempos de carrera más rápidos que las mujeres. Aunque esto se puede ver claramente en la gráfica y la tabla, también es importante tener en cuenta que ambas distribuciones no son uniformes y presentan señales de bimodalidad, lo que sugiere la existencia de otras variables que aún no han sido descritas y que pueden tener un impacto en la velocidad por género.

  • Tiempo por Rango de Edad: En cuanto a los tiempos de carrera por rango de edad, aunque las medianas son distintas entre los diferentes grupos de edad, los rangos intercuartiles son muy similares para la mayoría de los grupos. Además, también es posible notar múltiples modalidades en los datos, lo que indica que puede existir alguna otra variable no analizada que pueda explicar mejor los tiempos de carrera.

Analisis Multivariado

Column

Sex / Edad

Column

Tabla






Column

Discusión

“En base a los resultados obtenidos como se muestra a través de las gráficas y la tabla, podemos decir que existe una diferencia en los tiempos de carrera entre hombres y mujeres, sin importar el rango de edad. Además, el análisis muestra que el rango de edad no es un factor determinante en la velocidad de carrera. Una vez más al observar la presencia de múltiples modalidades en los resultados, podemos concluir que hay variables no incluidas en el conjunto de datos que podrían ayudar a comprender de manera más completa los tiempos de carrera.”

Conclusión

Después de analizar las diferentes variables en el conjunto de datos de la CarreraLuz22, solo encontramos una relación entre la variable “timerun” y la variable “sex”, en el cual el tiempo mediano de los hombres es 8 minutos menor que el tiempo mediano de las mujeres en este conjunto de datos específico. Sin embargo, se detectó la posible existencia de otras variables que expliquen de manera más efectiva la variable “timerun”, pero que no se encuentran en el conjunto de datos.

Es importante destacar que este solo es un ejercicio exploratorio que tiene como objetivo describir los datos mencionados, y se recomienda realizar estudios más rigurosos para llegar a cualquier tipo de inferencia respecto a los tiempos de carrera en este tipo de competencias.